重磅!| NLP不断突破界限,2023 十篇必读的顶级NLP论文!
引言
从2018年的BERT,到2020年的GPT-3,再到现在爆火的chatGPT,自然语言处理(NLP)技术的快速发展,并且不断突破原有的界限。作为NLP研究人员/爱好者来说,及时地了解NLP最新技术就显得至关重要。为此,今天给大家分享10篇2023年的顶级NLP论文,其中主要包括:语言模型、训练优化、模型攻击、多模态推理、文本生成辨识等最新进展,相信看完你对目前NLP技术发展有一个更新的认识!
10篇文章获取,后台回复:2023开年顶级论文
Toolformer
Toolformer包含一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。最好重要的是它在零样本情况下,在不牺牲其核心语言能力的情况下,在各种下游任务中都实现了大幅提升,并可比拟更大的模型。Toolformer将语言模型与软件工具的应用结合,未来能够让我们的生活变得更加轻松。
SWARM 并行性
然后,它分析了现有模型并行算法在这些条件下的性能表现,确定了训练大型模型时通信密集度降低的配置。为此引入了SWARM并行性,这是一种新颖的模型并行训练算法,专为连接不良、异构和不可靠的设备而设计。
「SWARM 在节点之间创建临时随机管道,在发生故障时重新平衡这些管道,这是对现有大规模训练方法的重大改进」。作者根据经验验证了他们的发现,并将 SWARM 并行性与现有方法进行了比较。
为了进一步展示本文方法的优势,本文将自己的见解与压缩策略相结合,在低于 200Mb/s 网络的抢占式T4GPU上训练具有1B共享参数(共享前大约 13B)的大型Transformer语言模型。实验结果表现,SWARM并行性有可能彻底改变大型模型的训练方式,使研究人员和从业者等人更容易获得并具有成本效益。
符合人类偏好
为解决这个问题,作者对预训练LM的五个目标进行了基准测试,并在三个任务中提供了人类反馈。研究了这些目标如何影响预训练LM的对齐和能力之间的平衡。发现了一种Pareto-optimal方法:条件训练。
条件训练主要是教LM学习根据它们的人类偏好分数(由奖励模型给出)在Tokens上的分布。得到的结果出奇的好,条件训练将不良内容的发生率降低了一个数量级,无论是在没有提示的情况下生成还是在对抗性选择的提示下生成时。
此外,条件训练在任务特定微调之前和之后都保持了标准LM预训练的下游任务性能。与标准LM预训练相比,使用人工反馈进行预训练的偏好满意度要高得多,然后根据反馈进行微调。
多模态思维链
多模态CoT模型旨在利用基于多模态信息实现结果生成的基本原理,从而提高答案推断的准确性。结果不言自明:具有不到1亿个参数的模型在ScienceQA基准上比以前最先进的LLM(GPT-3.5)高出16个百分点(75.17%至91.68%的准确率),甚至超过了人类的表现。
模型病毒攻击
第一种攻击是分屏视图中毒,它利用了互联网内容的易变特性。通过操纵注释者对数据集的视图,他们可以引入恶意示例,而后续客户端不会注意到这些恶意示例。这种攻击尤其阴险,因为它利用了无效的信任假设。令人震惊的是,作者发现他们只需60美元就可以毒害0.01%的LAION-400M或COYO-700M数据集。
第二种攻击是“前沿中毒”(frontrunning poisoning),目标是网络规模的数据集,这些数据集定期对众包内容进行快照,比如维基百科(Wikipedia)。攻击者只需要一个有时间限制的窗口就可以将恶意示例注入数据集。
针对这些攻击,作者通知了每个受影响数据集的维护者,并推荐了几种低开销的防御措施。这些防御措施将有助于降低数据集中毒的风险,并保护深度学习模型免受恶意攻击。
优化算法发现
他们的方法利用有效的搜索技术来探索无限和稀疏的程序空间。为了简化流程,他们还引入了课程选择和简化策略。他们的方法的结果是发现了一种新的优化算法,Lion(进化符号动量)。
与Adam和Adafactor等广泛使用的优化器相比,Lion的内存效率更高,因为它只跟踪动量。它与自适应优化器的另一个不同之处在于,它的更新对于通过符号操作计算的每个参数具有相同的大小。
人类反馈强化学习(RLHF)
然而,作者指出,底层的RL算法并不是“在公园里散步”,而需要额外的奖励和价值网络训练管道。因此,他们提出了另一种方法:重新标记原始反馈,并以监督的方式训练模型以更好地对齐。该算法除了原有的语言模型外,不需要任何额外的参数,最大限度地重用了预训练管道。
为了实现这一目标,作者将语言模型的指令对齐问题制定为决策中的目标实现问题。他们提出了一种新的算法,称为后见指令重新标签(HIR),该算法将语言模型与基于后见指令重新标签的反馈的指令对齐。
Transformers替代品
除了准确性之外,Hyena还可以将序列长度为2K时所需的训练计算减少20%。它的运算符在序列长度8K时的速度也是高度优化注意力的两倍,在序列长度64K时快100倍。这意味着Hyena不仅强大,而且效率高。总的来说,Hyena 为深度学习中的Subquadratic方法提出了一种很有前途的新方法,可能对该领域产生广泛的影响。
语言模型中提取知识图谱
作者提出了「一种从给定语言模型中提取事实知识图谱的新方法」。他们首先“爬取”语言模型的内部知识库,并围绕种子实体扩展知识图。爬行过程被分解为子任务,通过特殊设计的提示来实现,以确保高精度和召回率。
作者在从几十个种子实体爬取的图上评估了他们的方法,发现它产生了82%到92%的高精度图。该过程还为每个实体发出了合理数量的事实,这对实际应用很重要。这项工作是建立更多可解释的语言模型的重要一步,这些模型可以提供从文本中获得的知识的结构化表示。
生成文本分辨
为了解决这个问题,作者提出了一种名为DetectGPT的新方法,该方法使用模型的对数概率函数的曲率来识别给定的通道是否由所讨论的LLM生成。这种新方法不需要单独的分类器或真实或生成段落的数据集,也不会显式地为生成的文本添加水印。
推荐阅读
[1] 「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !
[4]【超详细!】一文看懂从逻辑回归(Logistic)到神经网络(NN)
[5] 北大 |一种细粒度的两阶段训练框架(FiTs)(开放源码)